La bio-informatique est constituée par l’ensemble des concepts et des techniques nécessaires à l’interprétation informatique de l’information biologique. Plusieurs champs d’application ou sous-disciplines de la bio-informatique se sont constitués (Wikipedia):
Séquençage Sanger: faible débit, utilisée pour le séquençage du génome humain
Séquençage de nouvelle génération: adapté au séquençage massif d’un grand nombre de génome pour étudier les variations génétiques (GWAS). Le leader du marché aujourd’hui est Illumina.
Le principe d’un séquençage NGS consiste à:
Applications principales
En Recherche: Recherche de mutations dans des panels larges ou des exomes complet) à visée de découverte.
En Clinique: Recherche de mutations dans des panels restreints pour le diagnostique.
Permet l’étude de mutations en génétique constitutionnelles et somatiques à faible pourcentages.
Grâce au NGS, un grand nombre de patients peuvent être analysés simultanément et rapidement.
L’analyse bioinformatique devient partie intégrante du processus de traitement.
Hybridation d’un brin sur un oligonucléotide attaché à la FlowCell
Un brin complémentaire est synthétisé.
La molécule d’origine est enlevée et la molécule libre s’hybride en pont.
Un brin supplémentaire est synthétisé de nouveau.
Les brins complémentaires à la cellule d’origine sont lavés et il ne reste que plusieurs copies d’une même brun (clusters)
Il reste à séquencer les brins présents: Lors de cette étape, le nucléotide incorporé est identifié grâce à un groupe fluorescent identifié par laser, permettant d’enregistrer la séquence de manière informatique.
Figure B: Schéma représentant les clusters sur une FlowCell
Figure C: Réaction de séquençage
Il est possible de créer une librairie enrichie en régions d’intérêt, par exemple pour séquencer uniquement les régions codantes du génome:
La préparation des librairies est une étape critique qui influence directement la qualité et la fiabilité des résultats du séquençage. Plusieurs paramètres doivent être considérés :
| Technologie | Principe | Longeur des Reads | Avantages | Inconvénients |
|---|---|---|---|---|
| Illumina | Séquençage par synthèse avec fluorescence | 50-300 pb (paired-end) | Haute précision, faible coût par base | Lectures courtes, difficulté sur les répétitions génomiques |
| Ion Torrent | Détection de pH lors de l’incorporation de nucléotides | 200-600 pb | Rapidité, coût modéré | Sensible aux erreurs d’homopolymères |
| PacBio (SMRT) | Séquençage en temps réel avec polymérase unique | >10 kb | Lectures longues, détection d’épimutations | Taux d’erreur élevé, coût élevé |
| Oxford Nanopore | Passage d’ADN à travers un pore biologique | Jusqu’à plusieurs Mb | Séquençage ultra-long, faible coût d’infrastructure | Taux d’erreur encore élevé |
Il est avantageux d’obtenir des fragments de lecture les plus longs possible pour un alignement le plus fiable possible.
Lors d’un séquençage simple (Single-end), les brins sont séquencés en partant d’un unique adaptateur. Un read correspond donc ensuite à un fragment.
Lors d’un séquençage appairé (Paired-end), les brins sons séquencés à partir de leur deux extrémités. Les fragment résultats sont appelés R1 et R2 et sont liés, qu’ils soient recouvrant ou pas.
Un site expliquant cela de manière intéressante:
http://thegenomefactory.blogspot.com/2013/08/paired-end-read-confusion-library.html
Ils contiennent les reads: petite séquence d’un fragment d’ADN de longueurs plus ou moins fixe.
@HWI-ST865:166:D0C4KACXX:2:1101:1042:1954 1:Y:0: CNANAAATNAANNNNGNNNNNNNNNANNNNNAAANNNTNNNNNNNNNTNNTGNNNNTTGTTTNNTTGTGGGTTTCTCTGTCCCCN + ##################################################################################### @HWI-ST865:166:D0C4KACXX:2:1101:1241:1970 1:N:0: CCAGCGACACTTGCAGCTTAGGGGCAAGAGGCTCCCACAACACCCTGTGCGATCGGAAGAGCGGTTCAGCAGGGATGCCGCGGCC + GFFIGIIIFGEHHIJJJIIGGGHIIBD=BFG?EDECC@FGCHC?BCCBB)53(;;B;?8299?######################
Quelques définitions:
Exemple:
Le trimming (“rognage”) est une étape préliminaire mais cruciale qui consiste à nettoyer les lectures (reads) pour améliorer la qualité globale des données en supprimant :
Les adaptateurs :
→ Séquences artificielles ajoutées pendant la préparation des librairies.
→ Peuvent apparaître à l’extrémité des reads si la lecture dépasse l’insert.
Les bases de mauvaise qualité :
→La qualité de séquençage chute souvent sur la début ou la fin des reads.
→ On retire les bases dont le score de qualité est trop faible (Phred < 20 ou 30).
Les séquences trop courtes ou ambigües :
→ Les reads très courts (après trimming) ou contenant trop de N sont parfois éliminés.
Il existe plusieurs programmes tels que Trimomatic, Cutadapt, fastp.
But: Aligner les séquences présentes dans les fichiers FASTQ sur le génome de référence (Fichier fa).
Logiciels courants : - BWA et sa variant BWA-mem (pour l’ADN) - STAR (pour l’ARN)
Ces logiciels vont produire un fichier BAM: contient les positions, qualités, erreurs, etc.
| Logiciel | Description | Usage |
|---|---|---|
| BWA (Burrows-Wheeler Aligner) | Rapide, précis, adapté à l’ADN | Exome, génome entier |
| Bowtie2 | Très rapide, faible empreinte mémoire | Petits génomes, épigénomique |
| Minimap2 | Alignement long-read + court-read | PacBio, Nanopore, Illumina |
Référence: Li et al: Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.
BWA (Burrows-Wheeler Alignment tool)a été spécialement conçu pour l’alignement de millions de séquences peu divergentes d’un génome de référence.
Il est basé sur la Transformée Burrows-Wheeler associé à un algorithme de tri par arbre. Il permet l’alignement de reads relativement longs pour lesquels il existe des seuils (gap) en cas de présence d’INDELS.
Il utilise une quantité relativement faible de mémoire (bwa-mem) et est parallélisable, pour exploiter les architectures multi-coeurs.
La détection des variants (variant calling) consiste à identifier les différences entre la séquence d’ADN séquencée (reads dans le fichier BAM) et une séquence de référence. Cette analyse permet de détecter des mutations telles que des substitutions, des insertions, des délétions et des variations structurelles.
SNP: Single Nucleotide Polymorphisms: Changement d’un simple nucléotide
InDEL: Insertion-DELetion: Insertion ou délétion d’une séquence jusqu’à 50 nucléoïdes.
CNV: Copy Number variation: Variant Structurel de plus de 1kB (Autre algorithme de détection)
Définition : Un SNP est une variation de simple nucléotide dans une séquence d’ADN. Cela signifie qu’un seul nucléotide (A, T, C ou G) est remplacé par un autre.
Fréquence : Les SNPs sont très courants dans le génome humain et représentent la variation génétique la plus répandue.
Exemple : Si dans une séquence d’ADN on a un “A” à un endroit donné chez une personne, un autre individu peut avoir un “G” à ce même endroit.
Effet : Les SNPs peuvent être neutres (n’ayant aucun effet), ou bien influencer l’expression des gènes, la fonction des protéines, ou la susceptibilité aux maladies. Certains SNPs sont également utilisés comme marqueurs génétiques pour étudier l’héritabilité de traits et de maladies.
Définition : Un InDEL est une variation où une ou plusieurs paires de bases d’ADN sont soit insérées (ajoutées) soit supprimées (délétion) dans une séquence d’ADN. Les InDELs peuvent être de petite taille (1-50 paires de bases) ou plus grandes.
Exemple : Si une séquence originale est ATGCGT, une insertion pourrait donner ATGCCGT, et une délétion pourrait donner ATGT.
Effet : Les InDELs peuvent provoquer un décalage du cadre de lecture (frameshift), surtout dans les gènes codants, ce qui peut aboutir à des protéines non fonctionnelles. Cela peut être lié à des maladies génétiques ou des traits spécifiques.
Définition : Un CNV est une variation où des grandes portions de l’ADN (plus de 1 kb) sont présentes en copies supplémentaires ou manquantes par rapport au génome de référence. Cela implique une duplication ou une délétion de segments d’ADN, souvent beaucoup plus grands que les Indels.
Exemple : Une personne peut avoir trois copies d’une région spécifique d’un chromosome, alors que la plupart des gens en ont deux (une copie de chaque parent).
Effet : Les CNVs peuvent affecter plusieurs gènes et ont un impact majeur sur l’expression des gènes, car ils augmentent ou diminuent la quantité d’ADN codant disponible. Ils sont associés à divers troubles génétiques, comme le syndrome de Down (duplication d’un segment sur le chromosome 21), et à d’autres traits et maladies complexes.
Détection: ils sont détectes par des algorithmes plus complexes que les SNPs et InDELs.
Lors du séquençage, chaque position du génome est couverte par plusieurs reads. Pour chaque position, le variant caller compare les bases nucléotidiques observées aux bases attendues dans la séquence de référence et calcule la fréquence des allèles alternatifs.
But: recherche de mutations dans des gènes d’interêt sur un échantillon.
Etapes de l’analyse bioinformatique:
Référence: Daniel C. Koboldt et al: VarScan: variant detection in massively parallel sequencing of individual and pooled samples: Bioinformatics. 2009 Sep 1; 25(17): 2283–2285.
Varscan est un programme de détection de variants utilisable aussi bien en constitutionnel qu’en tumoral. Il permet également de travailler de manière individuelle (un échantillon à la fois) ou sur plusieurs échantillons par le biais d’un VCF multi-échantillons.
Site Web: https://dkoboldt.github.io/varscan/germline-calling.html
Le format de fichier VCF (Variant Call Format) est typiquement utilisé pour l’échange de données. (Nous en sommes à le version 4.3) (https://samtools.github.io/hts-specs/VCFv4.3.pdf).
Ca format a été développé dans le cadre de large projets génomiques (1000 Genome Project). Certain sites ont développé leur propre spécification du format VCF.
Une en-tête (marquée avec des ##) contenant les métadonnées:
FILTER, INFO et FORMAT(Optionnel) La liste des régions du génome analysé (Format gVCF)
La liste des variants contenant:
##Entrées FILTER: Descripton du filtre utilisé pour le contrôle qualité
Entrées INFO: Informations sur l’ensemble des échantillons
Entrées FORMAT: Informations spécifique à chaque échantillon
C’est un fichier texte délimité par des tabulations. On peut donc l’ouvrir avec M$ Excel mais en général, nous travaillons sur ce type de fichiers avec des outils dédiés ou des scripts “maison” du fait de leur volume.
Voici quelques outils très intéressants pour la manipulation de fichiers VCF:
Il existe également un format étendu genomic VCF (gVCF), utilisé avec GATK, qui contient des informations sur les blocs qui correspondent à le référence et à leur qualité.
GENCODE est un projet international visant à fournir une annotation complète et précise des éléments génomiques du génome humain (hg19/GRCh37, GRCh38) et de la souris (mm10/GRCm38, GRCm39): https://www.gencodegenes.org/
A quoi ca sert ?
RefSeq (Reference Sequence) est une base de données de séquences de référence maintenue par le NCBI (National Center for Biotechnology Information). Elle fournit des séquences normalisées et validées pour :
Objectif:
| Caractéristique | RefSeq (NCBI) | GENCODE / Ensembl |
|---|---|---|
| Institution | NCBI (USA) | EMBL-EBI / UCSC / GENCODE (Europe / international) |
| Objectif principal | Fournir des séquences de référence validées | Offrir une annotation complète et exhaustive |
| Types de séquences | Sélection filtrée (curation manuelle + automatique) | Annotation large incluant isoformes rares |
| Nomenclature | NM_, NR_, NP_, NG_, NC_ | ENSG_, ENST_, ENSP_ |
| Mise à jour | Moins fréquente, très contrôlée | Rapide et automatisée, cycles fréquents |
| Utilisation typique | Référence stable pour annotation clinique | Recherche, prédiction d’isoformes, transcriptomique |
| Genome Browser associé | NCBI Genome Data Viewer | Ensembl / UCSC Genome Browser |
| Interopérabilité | Compatible avec ClinVar, dbSNP, etc. | Lié à BioMart, compara, VEP |
Accès RefSeq: https://www.ncbi.nlm.nih.gov/refseq/ Accès GENCODE: https://www.gencodegenes.org/
Les deux ressources sont complémentaires :
La nomenclature HGVS (Human Genome Variation Society) est - un système standardisé - permettant de décrire les variations génétiques de manière précise et univoque.
Standardisation : Permet une communication claire entre chercheurs et cliniciens.
Interprétabilité : Utilisée dans les bases de données cliniques (ClinVar, dbSNP, LOVD).
Reproductibilité : Facilite l’intégration des variants dans les outils bioinformatiques.
HGVS official guidelines : https://varnomen.hgvs.org
Mutalyzer (outil pour vérifier les annotations) : https://mutalyzer.nl
La nomenclature HGVS décrit les variations en fonction de la séquence de référence utilisée (ADN, ARN ou protéine)
Elle suit la structure générale suivante :
[Type de séquence] [Identifiant de la séquence de référence] : [Type de variation]
Les principaux types de séquences utilisées sont : - g. → génomique (ex. : NC_000023.11:g.32389689G>A) - c. → cDNA (ex. : NM_004006.2:c.35delG) - r. → ARN (ex. : NM_004006.2:r.35_36del) - p. → protéine (ex. : NP_003997.1:p.Gly12Val)
L’annotation des variants consiste à collecter de l’information sur l’impact du variant:
Dans quel gène/exon se trouve la mutation et quel est son impact au regard de la protéine correspondante ?
Détermination de leur fréquence dans les populations, que ce soit parmi la population générale ou parmi des patients atteins de cancers ou maladies rares.
Conséquences fonctionnelles (Mutation sans effet (synonyme), Mutation faux-sens (missense), Mutation non-sens (stop-gain, stop-loss), Mutation sur site d’épissage, variant intronique (UTR) )
Interpretation clinique (classification pathogène, vraisamblablement pathogène, VUS (Variant of Unknown Significance), Bénin)
L’impact peut être plus ou moins important suivant la localisation du variant:
Souvent neutres.
Risque : création de nouveaux sites d’épissage ou modification d’éléments régulateurs.
Filtrage des variants : on priorise les exoniques non synonymes ou régulateurs.
Diagnostic moléculaire : prédiction de pathogénicité.
Compréhension fonctionnelle : mécanismes d’action des mutations.
Support bioinformatique
Scores prédictifs: proportionnels à leur impact:
Scores prédictifs (SIFT, PolyPhen, CADD, dbNSFP)
Impact VEP Variant Effect Predictor : High, Moderate, Low, Modifier
Présence dans les bases de données de pathogenicité (ClinVar, HGMD…)
On suit les recommandations ACMG (American College of Medical Genetics).
Annovar est un utilitaire d’annotations de variants. Il fonctionne à partir de génomes divers (hg38, hg19, souris, drosophile, levure, etc…)
Il permet de faire des annotations au niveau des gènes et donc de retrouver les gènes à partir des bases de données RefSeq, Ensembl, etc…
Il permet aussi d’annoter des Régions ainsi que de construire des filtres basés sur le contenu des bases de données.
Les principales bases de données qu’il permet d’utiliser pour l’annotation sont:
(voir https://annovar.openbioinformatics.org/en/latest/user-guide/filter/#summary-of-databases)
VEP (Variant Effect Predictor) est un outil développé par Ensembl
Il permet d’annoter automatiquement des variants (SNVs, indels, CNVs…)
Pour chaque variant, il fournit :
Supporte les formats VCF, texte tabulé, HGVS
Exemple: Variant : 13:32316461 C>T
SnpEff permet de prédire l’effet d’un variant sur les gènes ou protéines (changement dans les acides aminés par exemple).
Référence: Cingolani P et al:, A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3.”. Fly (Austin). 2012 Apr-Jun;6(2):80-92. PMID: 22728672
Documentation: http://pcingola.github.io/SnpEff/se_introduction/
MobiDetails: an interactive application for clinical interpretation of human genome variations Martelotto L.G., Maussion G., Tournier I. et al.* Bioinformatics (2024), btae157
La base de données Genome Aggregation Database est une base développée à l’intention de la communauté scientifique et médicale pour l’annotation de séquences humaines.
Elle contient les fréquences alléliques de variants strucuraux dans différentes populations pour plus de 76000 génomes (pour hg38) et 10000 génomes (pour hg37) ayant été séquencés dans le cadre d’analyses de maladies rares et de cancers.
Référence: Karczewski, K.J., Francioli, L.C., Tiao, G. et al. The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581, 434–443 (2020). https://doi.org/10.1038/s41586-020-2308-7
C’est un catalogue de variations génétiques communes (existantes dans au moins 1% de la population) obtenues à partir de donneurs sains, constituant une ressource de référence utilisée par la communauté biomédicale.
Ce catalogue est accessible à travers l’International Genome Sample Ressource.
Il est continuellement maintenu et mis à jour avec les dernières versions du génome humain et des données provenant de nouvelles populations.
A ce jour, il contient des variants pour 2504 individus obtenus dans 26 populations.
Il n’y a aucune donnée phénotypique ou médicales associée.
Référence: A global reference for human genetic variation, The 1000 Genomes Project Consortium, Nature 526, 68-74 (01 October 2015) doi:10.1038/nature15393.
URL: https://cancer.sanger.ac.uk/cosmic Cette base constitue une ressource pour l’exploration de l’impact des mutations somatiques dans les cancers.
Il contient des données traitées manuellement associées à des panels de gènes ciblés. Elles sont disponibles sur les versions hg37 et hg38 du génome humain.
Les données consistent en un catalogue de mutations liées à 1.4 millions de tumeurs obtenues à partir de 26000 publications. Les données sont associées à des meta-données (facteurs environnementaux et historique des patients).
Référence: COSMIC: the Catalogue Of Somatic Mutations In Cancer. John G Tate et al. Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D941–D947, https://doi.org/10.1093/nar/gky1015
SIFT
Signification : Sorting Intolerant From Tolerant
Objectif : SIFT prédit si une substitution d’un acide aminé a un effet délétère sur la fonction de la protéine.
Principe : À partir d’une séquence protéique, SIFT sélectionne des protéines homologues et construit un alignement multiple. Pour chaque position de l’alignement, SIFT calcule la probabilité qu’un acide aminé soit toléré, en supposant que l’acide aminé le plus fréquent est fonctionnel.
Si cette valeur normalisée est inférieure à un seuil, la substitution est prédite comme délétère.
PolyPhen
CADD
Travailler sur des données de séquençage constitutionnelles (germinales) et somatiques (tumorales) implique des approches et des objectifs très différents, tant sur le plan biologique, bioinformatique, que clinique.
| Type de variant | Origine | Présence | Exemple |
|---|---|---|---|
| Constitutionnel (germinal) | Hérité ou de novo | Dans toutes les cellules | Mutation BRCA1 germinale |
| Somatique (Tumoral) | Acquis dans un tissu donné (souvent tumoral) | Dans un sous-ensemble de cellules | Mutation TP53 dans une tumeur |
| Étape | Constitutionnel | Somatique |
|---|---|---|
| Type d’échantillon | Sang, salive, peau | Tumeur + sang (paire tumor/normal) |
| Variant Calling | GATK HaplotypeCaller | Mutect2, VarScan2, Strelka2 |
| Seuils alléliques | 50% (hétéro), 100% (homo) | VAF faible possible (<5%) |
| Annotation | ClinVar, OMIM, VEP | COSMIC, OncoKB, CIViC |
| Objectif | Diagnostic / Conseil génétique | Thérapeutique / Recherche cancer |
| Constitutionnel | Somatique |
|---|---|
| Identifier une mutation causale | Détecter des cibles thérapeutiques |
| Classer selon les critères ACMG | Utiliser des bases oncologiques (ESCAT, CIViC) |
| Conseiller la famille | Adapter le traitement à la tumeur |
| Suivre le patient sur le long terme | Comprendre la progression tumorale |
Varscan utilise en entrée un fichier mpileup qui contient
La profondeur de lecture par position
Les bases observées
La qualité de base (Phred)
Analyse par VARSCAN: Évaluation des positions présentant une variation :
Application de filtres configurables : fréquence, p-value, strand bias…
mpileup2cns) :
somatic) :
Filtrer sur la fréquence allélique maximum observable dans la population générale (**pathogénique = rare dans la population)
Filtrer sur l’impact mesuré par SIFT ou PolyPhen
Merci à Nicole CHARRIERE (Admin IFB) pour avoir créé l’espace de travail de cette formation sur l’infrastructure IFB

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 4.0 International.